Multi-catégorisation de textes juridiques et retour de pertinence
نویسندگان
چکیده
Résumé. La fouille de données textuelles constitue un champ majeur du traitement automatique des données. Une large variété de conférences, comme TREC, lui sont consacrées. Dans cette étude, nous nous intéressons à la fouille de textes juridiques, dans l’objectif est le classement automatique de ces textes. Nous utilisons des outils d’analyses linguistiques (extraction de terminologie) dans le but de repérer les concepts présents dans le corpus. Ces concepts permettent de construire un espace de représentation de faible dimensionnalité, ce qui nous permet d’utiliser des algorithmes d’apprentissage basés sur des mesures de similarité entre individus, comme les graphes de voisinage. Nous comparons les résultats issus du graphe et de C4.5 avec les SVM qui eux sont utilisés sans réduction de la dimensionnalité.
منابع مشابه
Utilisation de WordNet dans la catégorisation de textes multilingues
La Catégorisation de Textes (C.T) consiste à assigner une ou plusieurs catégories parmi une liste prédéfinie à un document. En d’autres termes, elle permet de chercher une liaison fonctionnelle entre un ensemble de textes et un ensemble de catégories (Sebastiani (2002)). La grande importance accordée cette dernière décennie au traitement des données multilingues, a donné naissance à un nouveau ...
متن کاملRetour dexpérience sur la détection automatique de métaphores dans des textes de Géographie
HAL is a multi-disciplinary open access archive for the deposit and dissemination of scientific research documents, whether they are published or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers. L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau...
متن کاملInteractions entre le calcul de collocations et la catégorisation automatique de textes
In this paper we describe some interactions between collocations and automatic text categorization. First, we use the differents categories to extract strings (through collocations agglutinations) related to each categorie. Then we use these categories-specific strings to improve categorization. MOTS-CLÉS : collocations, catégorisation automatique de textes.
متن کاملProstitution, Islamic Law and Ottoman Societies
This article examines the treatment of prostitution in several genres of Ottoman legal writing—manuals and commentaries of Islamic jurisprudence, fatwās (legal opinions) and ḳānūnnāmes (Sultanic legislation)—and looks at how prostitution was dealt with in practice by the empire’s sharīʿa courts and by its provincial executive authorities. The article uses prostitution as a case study to investi...
متن کاملTLabel: Nouvel opérateur d'agrégation par catégorisation dans les cubes de textes
Résumé. L’analyse en ligne (OLAP) dans les cubes de textes nécessite la définition de nouveaux types d’opérateurs d’analyse appropriés aux données textuelles. En effet, les opérateurs d’agrégation classiques ont montré leur efficacité pour l’analyse en ligne des données numériques, mais ils sont inadaptés pour l’analyse des données textuelles. Dans cet article, nous proposons un nouvel opérateu...
متن کامل